iT邦幫忙

2025 iThome 鐵人賽

DAY 22
0
AI & Data

30 天入門常見的機器學習演算法系列 第 22

(Day 22) 深度學習中的正規化與正則化 (Regularization in Deep Learning)

  • 分享至 

  • xImage
  •  

在前幾天的文章裡,我們已經從線性迴歸、邏輯迴歸一路走到 CNN (卷積神經網路),逐步體驗了機器學習與深度學習的不同。到了深度學習階段,模型的複雜度往往大幅增加,參數數量動輒上百萬甚至上億,這也帶來了一個非常嚴重的問題: 過擬合 (Overfitting)。

今天我們要談的主題「正規化 (Normalization) 與正則化 (Regularization)」,就是專門為了解決這類問題而設計的工具。這兩個詞在中文裡常常被混淆,但在深度學習中有明確的區分:

  • 正規化 (Normalization): 處理資料或中間層輸出的「分布」,讓訓練更穩定。
  • 正則化 (Regularization): 在模型學習過程中「限制參數自由度」,避免過度擬合。

可以把它們理解成:

  • 正規化是「讓訓練跑得順暢」
  • 正則化是「讓模型不要學壞」

為什麼需要正規化與正則化?

深度學習的挑戰主要來自於以下幾點:

  1. 參數數量龐大
    • FCNN、CNN、RNN 等模型的參數動輒上百萬,模型表達能力非常強。這雖然能學習複雜模式,但也極容易記住「訓練資料」而不是「一般化規律」。
  2. 梯度傳遞問題
    • 深層網路容易遇到梯度消失或爆炸,導致學習不穩定。
    • 即便是設計良好的激活函數 (如 ReLU),也可能因資料分布不均而造成某些神經元失效。
  3. 資料有限
    • 真實世界中,資料集往往有限,無法支撐一個龐大模型完全「正確」學習。若沒有適當限制,模型就會死記硬背訓練資料,導致測試集表現不佳。

為了應對這些問題,正規化與正則化技術被廣泛應用在深度學習的訓練流程中。

正規化 (Normalization)

正規化的核心目標是: 讓輸入資料或中間層輸出的數值保持在合理範圍內,以便模型更容易學習。在模型訓練前,我們通常會對輸入資料進行縮放,例如:

  • Min-Max Scaling
  • Z-score Standardization

正則化 (Regularization)

正則化的核心目標是:避免模型過擬合,提升泛化能力。

  • L1 與 L2 正則化
  • Dropout

正規化與正則化的互補關係

雖然名稱相似,但正規化與正則化針對的問題不同:

  • 正規化 → 解決訓練穩定性、加速收斂
  • 正則化 → 解決過擬合、提升泛化

在實務上,它們通常是 同時使用 的。例如:

  • CNN: 資料正規化 + Batch Normalization + Dropout + Weight Decay
  • RNN/Transformer: Layer Normalization + Early Stopping + Data Augmentation

結語

深度學習之所以能夠在近十年迅速崛起,不只是因為 GPU 算力提升或資料量增大,還有賴於一系列 正規化與正則化技術 的發展,讓深度模型可以被穩定地訓練並具備良好的泛化能力。

可以這樣理解:

  • 沒有正規化,模型可能訓練不起來
  • 沒有正則化,模型可能學壞掉

在進入 RNN、LSTM、Transformer 之前,理解這些基礎的訓練技巧,能讓我們更清楚地看到深度學習從「能跑」到「能用」的過程。


上一篇
(Day 21) 卷積神經網絡 (Convolutional Neural Network)
下一篇
(Day 23) 深度學習中的優化方法 (Optimization in Deep Learning)
系列文
30 天入門常見的機器學習演算法30
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言